Tipos de filmes

Vamos verificar a existência de tipos de filmes quanto a mediana da idade dos homens e das mulheres, quantidade de homens, quantidade de mulheres. Será que existem grupos que definem comportamentos comuns para os filmes disponibilizados? Utilizaremos os dados disponíveis no seguinte endereço: https://github.com/matthewfdaniels/scripts.

Definindo as variáveis a serem utilizadas

Neste post iremos utilizar 4 variáveis que foram calculadas a partir dos dados disponibilizados pelo endereço do Github acima. As variáveis são as seguintes: mediana da idade dos homens e mulheres, a quantidade de homens e de mulheres que participaram dos filmes.

Como existiam valores nulos na variável ‘age’(idade), filtrei os dados retirando-os, pois não faz sentido para a análise utilizar personagens com idade nula.

Escolhendo o número de grupos

Antes de realizar o agrupamento dos filmes, precisamos decidir qual a melhor quantidade de grupos pela qual os filmes serão agrupados, para que eles sejam realmente o mais semelhantes entre si dentro do seu grupo.

De acordo com o gráfico acima é possível verificar que a melhor quantidade de grupos será 4, pois a partir do quinto ponto do gráfico a distância para de crescer.

Agrupamento dos filmes utilizando o algoritmo k-means

Depois de ter definido o melhor número de grupos para os filmes, chegou a hora de realizar o agrupamento de fato e analisar cada grupo para assim conseguir nomeá-los de acordo com suas características.

Verificando o gráfico acima podemos observar grupos que caracterizam os filmes existentes nos dados, olhando a direção em que as linhas dos filmes cruzam cada uma das variáveis.

Redução de dimensionalidade usando PCA (Análise de Componentes Principais)

No gráfico abaixo podemos ver a visualização em duas dimensões da redução de dimensionalidade das 4 dimensões mencionadas no ínicio desse post.

As variáveis PC1 e PC2 correspondem as 4 variáveis originais, elas são criadas a partir da correlação entre as variáveis originais, utilizando-se a técnica PCA.

Analisando o gráfico acima age_m (mediana da idade dos homens) e age_f (mediana da idade das mulheres) variam quando os valores são alterados no eixo horizontal (direção de PC1), não variam tanto em relação há mudanças de valores no eixo vertical (direção de PC2). Já as variáveis n_m (quantidade de homens) e n_f (quantidade de mulheres) estão bem mais relacionadas com a variável PC2 do que com a PC1, ou seja, elas variam principalmente quando há modificações nos valores do eixo vertical.

Também podemos ver a mesma informação do gráfico mostrando PC1 e PC2 como funções das 4 variáveis, da seguinte forma:

##   PC      age_f      age_m        n_f        n_m
## 1  1 -0.6765686 -0.6975487 -0.1075330 -0.2100412
## 2  2  0.1478278  0.1533945 -0.7826054 -0.5849323

Os valores da tabela acima correspondem aos coeficientes. A partir desses valores podemos concluir que se mudar alguma unidade nas duas primeiras variáveis aumenta PC1, já as variáveis n_f e n_m possuem um efeito menor em relação a PC1. E analisando os valores de PC2 percebemos que ocorre o contrário do mencionado anteriormente, se mudar uma unidade nas variáveis n_f e n_m aumenta PC2 e faz com que um ponto esteja mais à cima ou abaixo no gráfico.

Quanto de informação foi perdida na redução de dimensões?

É preciso quantificar quanta informação foi perdida quando reduzimos as quatro dimensões em apenas duas, para isso podemos comparar a variância acumulada nos PCs com a variância total existente com todas as variáveis originais nos dados. Podemos verificar isto analisando o gráfico abaixo:

Podemos concluir que com dois componentes principais (PCs) conseguimos representar 60,58% da informação original dos dados.

Correlação entre as variáveis e os PCs

Podemos perceber que as variáveis têm uma certa correlação. As variáveis age_f e age_m possuem uma alta correlação e são componentes principais para trazer informação para o componente PC1, isso quer dizer que PC1 é uma função dessas variáveis. Como as outras duas variáveis não trazem muita informação para PC1, é criado outro componente chamado PC2 sendo representado por n_m e n_f que possuem correlação entre si, mas não é tão alta quanto a correlação entre age_f e age_m.

Interpretação dos grupos

Observando o gráfico acima podemos nomear os grupos da seguinte maneira:

  1. Grupo 1: possui valores altos de age_f e age_m, que variam bastante e valores baixos de n_m e n_f que não variam tanto. Este grupo pode ser chamado de “Filme com os experientes!”.

  2. Grupo 2: possui valores baixos da mediana da idade dos homens(age_m) e das mulheres(age_f) e possui valores da quantidade de mulheres mais altos que a dos homens, ou seja, este grupo é caracterizado por ter um maior número de mulheres e por ter uma faixa de idade entre homens e mulheres bem semelhantes. Pode ser denominado de “Mulheres sim senhor!”.

  3. Grupo 3: possui valores altos para a mediana da idade dos homens e das mulheres e valores baixos para a quantidade de homens e de mulheres, porém a quantidade de homens é mais alto em relação as mulheres, ou seja, este grupo é caracterizado por ter um número maior de homens e as idades entre os gêneros semelhantes. Um nome característico para esse grupo é “Homens sim senhor!”.

  4. Grupo 4: possui valores mais baixos de n_m do que de n_f e valores baixos da mediana da idade dos homens e das mulheres, porém os das mulheres são mais altos que os dos homens. Pode ser denominado de “Filme das novinhas!”.